查看原文
其他

神仙湖畔|AIGC三维内容生成:人工智能在3D世界狂飙

The following article is from 香港中文大学深圳 Author CPRO

AIGC

AIGC三维内容生成:

人工智能在3D世界狂飙

对话理工学院韩晓光教授


韩晓光教授


“我们生活在两个平行的现实中,一个是原子,另一个是比特。”


——埃森哲咨询公司(Accenture)

《技术展望2023》


主题采访杂志截图



AIGC,何方神圣?

与GPT-4的浪潮一同“强势”涌入大众视野的,还有AIGC。


从与GPT-4进行文字对话,到文心一言输入成语“胸有成竹”即可生成与之相对应的图片,在创作领域,AI一路高歌猛进,逐渐辅助甚至代替人类进行复杂的创作活动。人工智能从先前的理解内容演进到自动生成内容,这宣告着AIGC时代的来临。


AIGC的全称是“人工智能生成内容(AI Generated Content)”。“它是一个宏大的概念,涉及到自然语言处理(Natural Language Processing,NLP)、图像生成、图像理解等众多领域。”香港中文大学(深圳)理工学院助理教授韩晓光如是说,“我自己做AIGC的研究项目,也只是这个领域的冰山一角。”


在AI尚未发展之时,数字内容创作需要大量人工劳动,进行“信息化”工作。动漫行业中的插画师,影视和综艺中的剪辑师、字幕师等,都是数字内容创作领域的常见职业,人在这其中的劳动有相当一部分也是重复性工作,比如插画师上色、字幕师打字。随着AI发展,内容创作中的重复性劳动逐渐被AI取代。如今,AI逐渐触及创意性活动,完成很多需要想象力和创造力的工作,如AI写诗、AI作画。


继AIGC文字、图片内容生成之后,AIGC在三维领域也铺开赛道。但是相较前两者,与视频和游戏相关的AIGC三维内容生成仍在摸索阶段。不过,对于像韩晓光教授这样从业多年的计算机图形学科研人员而言,AIGC三维内容生成并不是一个新兴事物。“如果追溯起来的话,研究者在这个领域已经努力二三十年了。”


利用AI进行三维内容生成,背后的驱动力是人们对高仿真虚拟事物的期待。随着动画、电影制作产业蓬勃发展,计算机视觉领域得到了愈发高涨的关注。迪士尼是最早做CG(Computer Graphics)动画的公司,对动画的真实性和连贯性已经有了一定要求。而电影对仿真度的要求更高。若影片中出现一些无法用摄像机进行真实拍摄的虚拟形象,如阿凡达、怪物等,就需要通过三维技术构建逼真的角色,这不仅需要赋予他们栩栩如生的外形,还要让他们自如连贯地运动,变换各种形态。可以说,AIGC三维内容生成是CG技术衍生与拓展的产物。

电影《阿凡达:水之道》广泛应用了CG技术来构建虚拟的形象。(图片来源:《阿凡达:水之道》剧照)


数据困境,能否逾越?

即使已经有了多年的发展基础,AIGC三维内容生成领域相较于文字、图片领域的进展要缓慢得多,也艰难得多。韩晓光教授一针见血地指出三维领域面临的挑战:“前两个领域之所以发展很快,最重要的原因就是数据多。三维领域最大的困难,就是缺少数据。”


数据缺乏会给AIGC三维领域带来什么影响?我们不妨从相对成熟的前两个领域出发,观照数据的重要作用。


NLP或许能解释AIGC在文字领域的快速发展。本质上,所有的任务都是建立“映射”,NLP是文本到文本的映射。我们定义一个输入,经过深度学习模型的训练,新的学习模型会构建数据之间的映射关系,使得输入有与之对应的输出,相当于人为地给机器提供“标准答案”,即标签化数据。机器翻译是NLP为人熟知的一种应用场景:输入中文,输出对应的英文。网络上大量的文字文本,为机器学习提供了庞大的语料数据。即使是不那么容易获得“标准答案”的对话,比如输入一句话,输出回答,NLP也可以通过自监督学习,在大量数据的基础上(即使缺乏标签化的数据),训练出好的对话模型。


AI生成图像(AI generated Image)也是如此。网络上流传的大量图像以及图像对应的文本,让AI能够构造文本与图像、图像与图像之间的映射关系。


与上述领域不同,三维数字内容不是随手就能批量获取的文字或图片,它是真实的模型。获取三维数字内容非常困难,成本也很高。


韩晓光教授对此深有体会:“我们跟一些建模师合作,基本上,让他们做一个模型,就是成百上千的价格。”去年,他找建模师做了1500多个数据模型,成本高达40万元。在他看来,又少又贵的三维数据,是AIGC在三维领域的最大障碍。这也是整个行业的瓶颈,无法通过一己之力,或是某一个团队就能够解决。缺少数据,是AIGC在三维领域的一道几乎无法逾越的鸿沟。


但,在数据困境面前,“无法逾越”并非“不可执行”。


“可执行”意味着坚持投入、慢慢摸索。今年,韩晓光团队成功收集到了一个庞大的数据集。他发现,“收集这件事情,虽然说会花我们很多的经费,会花很多的人力物力,但是也不是不能做,还是可以去着手的。只是没有办法在一两年内全部完成,或是达到大规模。”收集数据,是一个渐进的过程。


“可执行”意味着寻找联系、另辟路径。AIGC的二维领域已经有很好的数据模型,这些数据模型包含了完备而强大的逻辑。二维是三维的投影,通过一些三维改革的手段,二维模型是可以转化成三维模型的。“我们做三维的研究需要充分借鉴二维基础模型的成果,以解决三维数据匮乏的问题。”韩晓光教授还强调,要战胜数据困境,不能只靠个人,更需要整个社会齐心协力。

韩晓光教授接受《神仙湖畔》记者采访(摄影:陈鸣)


GAP Lab,跟上

韩晓光教授领导的GAP(Generation and Analysis of Pixels, Points and Polygons)实验室,依托香港中文大学(深圳)理工学院和未来智能网络研究院,涵盖了计算机视觉、计算机图形学、机器学习等多个研究领域。

GAP Lab依托香港中文大学(深圳)理工学院和未来智能网络研究院,涵盖了计算机视觉,计算机图形学,机器学习等多个研究领域。图为GAP Lab人员合影。(图片来源:受访者提供)


AIGC三维内容生成分为两个层面,一是重建,二是创作。GAP实验室在这两个层面都在努力。


重建是对真实世界的数字化。早在2019年,就有大批科研团队从事数字人的重建工作。但重建数字人服装时,大多数重建都将人体和服装作为一个整体。韩晓光教授深知其中的不合理:“人体和衣服本身在物理上就是分隔的。”他着手将衣服分离,对衣服单独进行三维重建。


进行三维重建,第一步是收集数据。“我们淘了很多便宜的衣服,把衣服穿在假模身上,摆出不同动作。我让一个学生拿手机围着模型咔咔咔地拍一圈下来,每个模型拍50到100张图片,然后利用多视角重建技术,最终呈现出衣服的三维模型。”收集数据的过程持续了一年,繁琐但有趣。


收集数据之后,韩晓光教授进一步提出:“如果给我一张单视角的图片,我能不能呈现出图片中衣服的三维模型?”由此,GAP实验室推出了一种名为ReEF(registering the explicit garment template to the whole-body implicit fields )的框架。给定单视角的服装图片,ReEF能够重建高保真度的三维服装,不仅在外观上与单视角图片相一致,还能穿在其他的虚拟角色身上。2022年,该项工作成果在IEEE国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition,CVPR)发表。


今年,GAP实验室进一步捕捉衣服的动态变化。在现实中,衣服不是静止的,而是随着人动的。“比如说让一个人穿着裙子,站在那儿,转一圈。我们拍一个几秒钟的视频,用这个视频去重建衣服的三维模型。”韩晓光教授说。数据集从无到有,由静到动,GAP实验室会继续在服装的三维重建上做得更好、步伐更快。

给定单视角的服装图片,ReEF能够重建高保真度的三维服装,并在外观上与单视角图片保持一致。(图片来源:gaplab.cuhk.edu.cn)


在创作方面,GAP实验室与华为公司开发了一个合作项目,创作拟人化的3D卡通形象。为此,他们做了一个包含1000多个模型的AI数据集。“无论做什么,我都想着先把数据集做出来。”韩晓光教授又一次提到了数据的重要性。基于这个数据集,随便给一张卡通动物的漫画,深度学习模型就能够将漫画形象直接输出成3D的动漫形象。“你还可以驱动这个动漫形象,你做一个动作,它会做出类似的动作。”


可以看到,AIGC正以前所未有的速度向前“狂飙”。“这个领域发展太快了,对于GAP实验室来说,我们不敢想引领,能跟上就不错了。”谈到对GAP实验室未来的期望,韩晓光教授特别地务实。在AI这片加速发展的领域,整个学术界都呈激烈竞争的态势,而在业界,要想跟谷歌、Meta这类大公司竞争,难度更是可想而知。“我们要做的就是努力跟进,能够持续地去做一些前沿的东西。”此外,GAP实验室依托高校,将更加注重破解底层难点,深挖理论上和技术上的问题。


“比特”世界

游戏、影视是AIGC三维内容生成应用最多的场景,常见的应用场景还有虚拟现实和增强现实。


除此之外,韩晓光教授还特别提到了虚拟人。在直播带货、新闻播报里,虚拟人已经有了很大的产业落地前景。一条条带货直播视频里讲解产品的人,说不定就是虚拟形象。这些形象甚至可以逼真到“真假难辨”“以假乱真”的地步。文旅行业也是如此。旅游中的导游工作,也将由虚拟人完成。这大大降低了人力成本,同时也会引发新一轮的就业革命。


AI看房、AI街景等虚拟三维场景,则是AIGC更加日常化的应用。在未来的网购中,或许还会出现虚拟试衣。消费者足不出户,即可在线上试到自己喜欢的衣服。


埃森哲咨询公司在《技术展望2023》中写道:“我们生活在两个平行的现实中,一个是原子,另一个是比特。”随着AI的发展,“比特”代表的虚拟世界将越来越向“原子”代表的虚拟世界靠拢,渗入现实生活的方方面面,深刻变革着人们的生产生活方式。应当看到,激动人心的科技变革热潮背后,是无数科研工作者脚踏实地的努力。


韩晓光教授接受《神仙湖畔》记者采访

(摄影:陈鸣)


以下是《神仙湖畔》与韩晓光教授的更多对话。


《神仙湖畔》:AIGC三维内容生成是CG技术的衍生。能否简要介绍CG技术?

 

韩晓光教授:CG技术里面包含三个步骤:建模、渲染、动画。第一步,建模,就是将三维的实体进行数字内容表达。比如说一个球体,放在一个桌子上,建模的意思是,你要先把这个球的球面用数学几何把它表达出来。接下来的任务就是渲染。渲染的目的是真实。球面有不同的材质,可能是皮的,可能是毛茸茸的,是木质的,这些质感都不一样,颜色也不一样。所以第二步就是渲染出来要很逼真,我们才能对渲染出来的物体有真实感受。第三步是动画。我们想让球体运动起来。这个运动又牵涉很多东西,比如一个球有弹性,当它被放上桌面的那一刻,它会弹起来。要模拟这个动画,需要物理方程,这就又会涉及很多物理的东西。

 

《神仙湖畔》:在三维重建中,有哪些技术难点?

 

韩晓光教授:第一个难点在于采集。一种是基于图像采集,比如说我拿着相机,拍很多张图片。你可以拿无人机在校园上空拍,收集到几百万张图片都有可能,然后用几百万张图片去重建一个校园出来。这就是基于多视角图像的重建。还有一种,像微软推出的Kinect可以看作一种三维相机,进行三维采集。如果光靠图像采集,死角问题是一个很大的难点。比如你看这个沙发,看它正面时,背面和底部都是看不见的。你永远都无法拍出完整的东西。

 

重建还有一个很难的事,要重建物体的材质,如何对物体的颜色、材质和纹理进行数字化表达?光照也是一个难题。光照要数字化,需要有光的模型,表达出光源在哪里,路径如何,它照在不同的材质上,怎么反射,等等。比如我们现在看到的沙发,你看到它在强光的照射下是亮色、有点偏白的,但实际上它是黑色的。我们采集的时候拍摄到它是白色的,但是我们怎么去还原它本身的黑色,这都是存在的问题。

 

如果是对人进行重建,难点出现在人的各个细节。头发的呈现,人脸的呈现,衣服的呈现,身体的呈现,人身上的每一个部位都可以成为一个值得深挖的领域。光人脸重建就已经有30年的研究了。重建一个像模像样、有鼻子有嘴巴有眼睛的人脸可且可以实现,但是要重建精致的皮肤材质,脸上的痣和皱纹,都是难事。大家都一直在研究这个事,现在还没有得到很好的结果。

 

《神仙湖畔》:三维重建是对真实世界的数字化还原,不涉及创意,为什么说它是AIGC三维内容生成的一部分?

 

韩晓光教授:创作往往需要底子。比如我们采集到一个书包,把它重建之后,我可以去给它编辑成黑色、红色等各种颜色,这就是二次创作。三维重建跟二次创作相关,所以它也是AIGC的一部分。有些创作是从无到有的,它跟真实场景无关。还有一种创作是重建完之后,我对它进行编辑,再创作,这是二次创作。这两种操作都叫创作。

-完-

传讯及公共关系处(CPRO)出品

转载自校刊《神仙湖畔》

采访:董楚珮(2021 级 经管学院 学勤书院)

编辑:季伊忱(2019级 人文社科学院 祥波书院)

主编:高逸(2020级 经管学院 祥波书院)

排版:杨璨(2022级 数据科学学院 思廷书院)


特别鸣谢:

金乐洋(2018级 理工学院 学勤书院)

周诗璟(2021级 理工学院 逸夫书院)




《神仙湖畔》


由香港中文大学(深圳)主管,大学传讯及公共关系处主办,立足大学,面向社会,通过记录这里的学者学人,探讨时代下的青年话题,来传递大学文化与精神。




继续滑动看下一个
香港中文大学深圳SSE理工学院
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存